来自拍拍贷的业务数据分析

## List of 1
##  $ text:List of 11
##   ..$ family       : chr "STKaiti"
##   ..$ face         : NULL
##   ..$ colour       : NULL
##   ..$ size         : NULL
##   ..$ hjust        : NULL
##   ..$ vjust        : NULL
##   ..$ angle        : NULL
##   ..$ lineheight   : NULL
##   ..$ margin       : NULL
##   ..$ debug        : NULL
##   ..$ inherit.blank: logi FALSE
##   ..- attr(*, "class")= chr [1:2] "element_text" "element"
##  - attr(*, "class")= chr [1:2] "theme" "gg"
##  - attr(*, "complete")= logi FALSE
##  - attr(*, "validate")= logi TRUE

收集数据

#评估数据

##    ListingId           借款金额         借款期限        借款利率   
##  Min.   :  126541   Min.   :   100   Min.   : 1.00   Min.   : 6.5  
##  1st Qu.:11908871   1st Qu.:  2033   1st Qu.: 6.00   1st Qu.:20.0  
##  Median :19523251   Median :  3397   Median :12.00   Median :20.0  
##  Mean   :19079479   Mean   :  4424   Mean   :10.21   Mean   :20.6  
##  3rd Qu.:26298621   3rd Qu.:  5230   3rd Qu.:12.00   3rd Qu.:22.0  
##  Max.   :32819531   Max.   :500000   Max.   :24.00   Max.   :24.0  
##                                                                    
##      借款成功日期    初始评级      借款类型      是否首标   
##  2017-01-25:  3558   A: 10284   APP闪电:112079   否:241090  
##  2017-01-20:  3063   B: 33188   其他   : 97302   是: 87463  
##  2016-12-14:  2266   C:131705   普通   :118103              
##  2016-12-02:  2033   D:134860   电商   :  1069              
##  2017-01-09:  1859   E: 17027                               
##  2017-01-04:  1806   F:  1489                               
##  (Other)   :313968                                          
##       年龄       性别              手机认证            户口认证     
##  Min.   :17.00   女:106607   成功认证  :123007   成功认证  : 10105  
##  1st Qu.:24.00   男:221946   未成功认证:205546   未成功认证:318448  
##  Median :28.00                                                      
##  Mean   :29.14                                                      
##  3rd Qu.:33.00                                                      
##  Max.   :56.00                                                      
##                                                                     
##        视频认证            学历认证            征信认证     
##  成功认证  : 18501   成功认证  :114124   成功认证  :  9606  
##  未成功认证:310052   未成功认证:214429   未成功认证:318947  
##                                                             
##                                                             
##                                                             
##                                                             
##                                                             
##        淘宝认证      历史成功借款次数  历史成功借款金额    总待还本金     
##  成功认证  :  1152   Min.   :  0.000   Min.   :      0   Min.   :      0  
##  未成功认证:327401   1st Qu.:  0.000   1st Qu.:      0   1st Qu.:      0  
##                      Median :  2.000   Median :   5000   Median :   2542  
##                      Mean   :  2.323   Mean   :   8786   Mean   :   3722  
##                      3rd Qu.:  3.000   3rd Qu.:  10355   3rd Qu.:   5447  
##                      Max.   :649.000   Max.   :7405926   Max.   :1172653  
##                                                                           
##  历史正常还款期数   历史逾期还款期数 
##  Min.   :   0.000   Min.   : 0.0000  
##  1st Qu.:   0.000   1st Qu.: 0.0000  
##  Median :   5.000   Median : 0.0000  
##  Mean   :   9.948   Mean   : 0.4233  
##  3rd Qu.:  13.000   3rd Qu.: 0.0000  
##  Max.   :2507.000   Max.   :60.0000  
## 

#清洗数据

Univariate Plots Section

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   17.00   24.00   28.00   29.14   33.00   56.00

观察到借款人的年龄范围是17-56岁。

## [17,22] (22,27] (27,32] (32,37] (37,42] (42,47] (47,52] (52,57] 
##   42445  116862   86039   44635   21134   12381    4212     845

借款人年龄分布在17-56岁之间,其中95%的借款人年龄分布在20-46岁之间,说明借款人主要以青壮年为主。

##     女     男 
## 106607 221946

男性借款人的数量大约是女性借款人数量的2倍,说明男性借款人更喜欢从拍拍贷上借款。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     100    2033    3397    4424    5230  500000

借款金额在100-500000元之间,上四分数为5230,说明75%的借款金额在5500元以下。

95%置信区间的借款金额在500-12000元之间,说明借款金额主要集中在500-12000元之间。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    1.00    6.00   12.00   10.21   12.00   24.00

借款期限大部分为一年(12个月)和半年(6个月),有少量9个月的借款。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     6.5    20.0    20.0    20.6    22.0    24.0

借款利率绝大多数在16-24%之间,主要集中在20%和22%。

大部分借款人的初始评级为C或D。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  1.0000  0.8416  1.0000  6.0000

通过手机认证和学历认证的借款人比较多,大多数人通过的认证方式不多于2种。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   0.000   0.000   2.000   2.323   3.000 649.000
## Warning: Removed 11 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

95%置信区间的历史成功借款次数在7次以下。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0       0    5000    8786   10355 7405926
## Warning: Removed 7661 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

95%置信区间的历史成功借款金额数在30000元以下。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##       0       0    2542    3722    5447 1172653
## Warning: Removed 429 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

95%置信区间的总待还本金在12000元以下。

##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##    0.000    0.000    5.000    9.948   13.000 2507.000
## Warning: Removed 7027 rows containing non-finite values (stat_bin).
## Warning: Removed 2 rows containing missing values (geom_bar).

95%置信区间的历史正常还款期数在40个月以下。

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.0000  0.0000  0.0000  0.4233  0.0000 60.0000
##    Mode   FALSE    TRUE 
## logical  278185   50368

大部分借款人能按期交还。

16年借款的人数最多,借款人在年初和年底借款的成功率较高。

Univariate Analysis

What is the structure of your dataset?

初始评级: F, E, D, C, B, A

What is/are the main feature(s) of interest in your dataset?

借款利率,借款金额。

What other features in the dataset do you think will help support your investigation into your feature(s) of interest?

可能影响借款利率的因素有借款金额,借款期限,初始评级,借款类型等; 可能影响借款金额的因素有初始评级,年龄,历史成功借款金额 总待还本金,历史逾期还款期数等。

Did you create any new variables from existing variables in the dataset?

从借款成功日期提取了年,月,日,从年龄中提取了借款人的年龄段。

Of the features you investigated, were there any unusual distributions? Did you perform any operations on the data to tidy, adjust, or change the form of the data? If so, why did you do this?

设置初始评级,计算认证评分

Bivariate Plots Section

## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'

随着借款金额的增加,借款利率开始逐渐降低;当超过300000元后,借款利率呈缓慢上升趋势。

## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'

借款期限和借款利率之间无明显关系。

初始评级越低,借款利率越高。

相比起APP闪电,普通以及其他借款类型,电商类型的借款利率较低。

初始评级越高,能借到的借款金额越大。

22岁以下的借款人借款金额较少,22-47岁之间的借款人借款金额增大,高额借款数量增加,47岁以上的借款人高额借款数量减少。

## Warning: Transformation introduced infinite values in continuous x-axis

## Warning: Transformation introduced infinite values in continuous x-axis
## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'
## Warning: Removed 87463 rows containing non-finite values (stat_smooth).

随着历史成功借款金额的增加,借款金额也持续增加。

## Warning: Transformation introduced infinite values in continuous x-axis

## Warning: Transformation introduced infinite values in continuous x-axis
## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'
## Warning: Removed 101301 rows containing non-finite values (stat_smooth).

随着总待还本金的增加,借款金额也持续增加。

## Warning: Transformation introduced infinite values in continuous x-axis
## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'
## Warning: Removed 278185 rows containing non-finite values (stat_smooth).

随着历史逾期还款期数的增加,借款金额也持续增加。

初始评级和年龄没有关系。

Bivariate Analysis

Talk about some of the relationships you observed in this part of the investigation. How did the feature(s) of interest vary with other features in the dataset?

影响借款利率的因素: 1. 随着借款金额的增加,借款利率开始逐渐降低;当超过300000元后,借款利率呈缓慢上升趋势。 2. 初始评级越低,借款利率越高。 3. 相比起APP闪电,普通以及其他借款类型,电商类型的借款利率较低。

影响借款金额的因素: 1. 初始评级越高,能借到的金额越大。 2. 22岁以下的借款人借款金额较少,22-47岁之间的借款人借款金额增大,高额借款数量增加,47岁以上的借款人高额借款数量减少。 3. 随着历史成功借款金额的增加,借款金额也持续增加。 4. 随着总待还本金的增加,借款金额也持续增加。 5. 随着历史逾期还款期数的增加,借款金额也持续增加。

Did you observe any interesting relationships between the other features (not the main feature(s) of interest)?

初始评级和年龄没有关系。

What was the strongest relationship you found?

初始评级越低,借款利率越高。

Multivariate Plots Section

借款期限越长,借款利率越高。

初始评级越高,借款利率越低,借款金额相对越大。

APP闪电的借款利率较高但借款金额较少,普通的借款类型的借款金额比APP闪电的借款金额要高但借款利率较低,电商的借款金额高但借款利率比较低,其他类型的借款金额比较大但借款利率比较低。

借款人的认证评分越高,借款金额越大, 和借款利率无关。

Multivariate Analysis

Talk about some of the relationships you observed in this part of the investigation. Were there features that strengthened each other in terms of looking at your feature(s) of interest?

借款金额,借款利率和其他因素之间的关系: 1. 借款期限越长,借款利率越高。 2. 初始评级越高,借款利率越低,借款金额越大。 3. APP闪电的借款利率较高但借款金额较少,普通类型的借款金额比APP闪电的借款金额要高但借款利率较低,电商的借款金额高但借款利率比较低,其他类型的借款金额比较大但借款利率比较低。 4. 借款人的认证评分越高,借款金额越大。

Were there any interesting or surprising interactions between features?

认证评分和借款利率无关。


Final Plots and Summary

Plot One

Description One

95%置信区间的借款金额在500-12000元之间。

Plot Two

## `geom_smooth()` using method = 'gam' and formula 'y ~ s(x, bs = "cs")'

Description Two

随着借款金额的增加,借款利率开始逐渐降低;当超过300000元后,借款利率呈缓慢上升趋势。

Plot Three

Description Three

初始评级越高,借款利率越低,借款金额相对越大。


Reflection

在本次的分析报告中,我在探索单变量因素,选取x轴的取值时遇到了很大困难,无法准确估计置信区间的临界值;同时在探索双变量因素,观察到年龄和初始评级没有关系,这与一般常识不符。比较成功的地方在于采用多种图表分析数据,未来将通过增加计算数据集的常用统计量来精确估计置信区间,同时对与一般常识不符的结论需要更多数据进行验证。